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摘 要 : 传统 的 针对 智能 手机 内 部 攻击 的 方式 容易 被 用 户 察觉 及 预防 。 作 为 一 种 常见 的 音频 信号 ，DTMEF 信号 在 手 
机 通信 中 具有 非常 重要 的 地 位 ， 但 也 面临 严峻 的 安全 风险 。 提 出 了 一 种 基于 DTMEF 信号 的 智能 手机 外 部 攻击 方法 ， 
可 以 在 用 户 不 被 察觉 , 且 与 用 户 手 机 无 交互 情况 下 进行 有 效 攻击 。 首先 , 该 方法 对 用 户 某 些 重 要 按键 操作 进行 录音 ; 
然后 对 录音 数据 在 时 域 上 进行 双 国 值 的 端点 检测 ， 提 取信 号 的 有 效 区 域 ; 再 将 有 效 区 域 通过 Goertzel 算法 转换 到 频 
域 进行 数字 分 类 ; 最 后 ， 通 过 比照 DTME 编码 表 得 到 用 户 所 有 按键 数据 。 实 验 结果 表明 ， 该 方法 在 10 db 信 骂 比 ， 
且 与 用 户 手 机 无 交互 的 条 件 下 能 破解 80% 以 上 的 按键 数据 。 
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External attack method for smartphone based on DT™MEF signal 


Shen Xingfa, Yang Jiani, Ran Degang 
人 (School of Computer Science & Technology, Hangzhou Dianzi University, Hangzhou 310018, China) 


a Abstract: The traditional way of internal attack for smartphone is easy to detected and prevented by the user. As a common 
| audio signal, DTMF signal plays a very important role in mobile communication, but also faces severe security risk. This 
paper proposed an external attack method for smartphone based on DIMF signal, which could attack effectively without the 
user being aware and without interaction with the smartphone. Firstly, it recorded some important keystroke operation of 
user. Secondly, performed double-threshold endpoint detection in time domain to extract the effective area of the signal. 
Thirdly, converted the effective area to frequency domain by Goertzel algorithm for digital classification. Finally, all the 
keystroke data of the user were obtained by comparing the DTMF coding table. The experimental results Show that the 
method can decipher more than 80% of the keystroke data under the condition of 10db signal-to-noise ratio and no 
interaction with the smartphone. 
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方式 ， 都 容易 被 用 户 察觉 并 采取 相应 的 解决 方法 ， 如 
Akhuseyinoglu 等 人 四 针对 软件 层面 的 攻击 提出 了 一 种 基于 
(CC 随 着 计算 机 技术 和 通信 业 的 发 展 ， 使 用 智能 手机 的 人 越 ”机 器 学 习 的 恶意 软件 自动 检测 工具 。Enck 等 人 外 针 对 系统 层 
《 来 越 多 。 根 据 互联 网 分 析 师 玛丽 * 米 克 尔 最 新 互联 网 趋势 报告 面 的 攻击 提出 的 TaintDroid 系统 执行 动态 污染 分 析 ， 可 以 显 
CS 中 显示 ， 到 2018 年 ， 全 球 智能 手机 的 用 户 人 数 约 为 15 亿 ， 示 智 能 手机 系统 中 隐藏 的 和 可 能 不 需要 的 私有 数据 信息 流 。 
中 国 智能 手机 用 户 数量 已 达 3.54 亿 , 超越 美国 成 为 世界 上 智 。 Khoula 等 人 U9 针对 网 络 层面 的 攻击 提出 了 一 种 针对 移动 热 
能 手机 用 户 量 最 多 的 国家 。 移 动 智能 手机 的 广泛 使 用 使 它们 点 入 侵 检测 系统 SIDS 。 
成 为 进行 隐私 和 安全 攻击 的 目标 ， 各 种 针对 智能 手机 的 攻击 综 上 所 述 ， 已 有 文献 的 研究 成 果 主 要 关注 的 是 对 智能 手 
接 旦 而 至 ， 其 中 有 三 类 攻击 最 为 频繁 ， 第 一 类 是 软件 层面 的 机 内 部 的 攻击 ， 且 用 户 容易 发 现 并 采取 相应 措施 进行 解决 ， 
攻击 ， 如 Das 等 人 发 现 的 一 些 第 三 方 应 用 可 以 收集 私自 用 户 反而 忽视 了 对 智能 手机 外 部 进行 攻击 的 方式 。 由 于 智能 手机 
物理 位 置 数 据 以 及 联系 人 信息 ,Schlegel 等 人 BI 发现 的 一 些 恶 【有 体积 小 ， 功 能 强大 等 特点 ， 大 多 数 的 人 都 选择 智能 手机 
意 软件 可 以 捕捉 语音 通话 和 记录 内 置 麦克 风 的 任何 对 话 ; 第 作为 业务 工具 ， 像 手机 银行 、 手 机 邮件 、 人 工 服务 和 手机 文 
二 类 是 系统 层面 的 攻击 ， 如 Drake 等 人 四 发 现 了 Android 系 寸 等 等 , 然而 这 些 业 务 操作 中 都 会 使 用 智能 手机 的 拨号 键盘 ， 
统 上 多 种 远程 代码 执行 漏洞 ， 并 且 不 需要 用 户 交 互 就 可 以 进 用 户 通过 拨号 键盘 进行 菜单 选择 以 及 密码 输入 ， 而 这 种 按键 
行 攻 击 ，Xing 等 人 号 发 现 的 针对 iOS 操作 系统 缺乏 身份 验证 操作 会 产生 一 种 DTMEF 的 音频 信号 ， 通 过 这 种 DTMEF 信 
造成 网 络 套 接 字 滥用 问题 ， 第 三 类 网 络 层 面 是 的 攻击 ， 如 的 录音 进行 检测 可 以 识别 用 户 的 按键 内 容 ， 且 不 容易 让 用 
Manikandan 等 人 [提出 的 通过 移动 热点 通信 信道 获取 其 他 节 察觉 ， 也 不 需要 与 用 户 手 机 进行 交互 。 本 文 基于 此 考虑 ， 提 
点 的 数据 和 流量 ，Cheng 等 人 M" 提 出 的 公共 WiFi 接 入 点 的 隐 出 了 一 种 基于 DTMF 信和 号 智能 手机 外 部 的 攻击 方法 , 攻击 者 
私 泄露 问题 。 这 三 类 针对 智能 手机 的 攻击 都 属于 内 部 攻击 的 通过 对 受害 者 某 种 操作 (密码 输入 、 电 话 号 码 输 入 等 ) 按 键 音 
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的 录音 ， 然 后 在 时 域 上 通过 双 阔 值 端点 检测 算法 将 按键 产生 
的 连续 DTMEF 信号 分 割 成 每 一 个 按键 的 DTMEF 信号 ， 在 频 
域 上 将 分 割 的 每 一 个 按键 的 DTMEF 信号 通过 Goertzel 算法 上 
解析 成 相应 的 数字 ， 最 后 获取 用 户 的 密码 和 手机 号 等 隐私 数 
据 。 经 证 明 ， 该 攻击 方式 在 10 db 的 信 品 比 的 条 件 下 ， 可 以 
破解 80% 以 上 的 4 或 6 位 数字 密码 和 11 位 数字 的 手机 号 码 。 
1 DTMF 信号 
电话 通信 具有 两 种 拨号 方式 ， 一 种 是 脉冲 式 拨 号 ， 一 种 
是 DTMF(dual tone multi ffequency)， 也 就 是 双 音 多 频 DU2 式 
拨号 。 脉 冲 式 拨号 是 早期 常用 的 拨号 方式 ， 它 通过 彼此 断 开 
的 脉冲 序列 发 送 呼 叫 和 被 叫 号 码 。 但 随 着 使 用 者 和 使 用 频率 
的 增加 ， 脉 冲 式 拨 号 暴露 出 人 工 量 大 ， 误 码 率 高 ， 通 信 效 率 
低 的 问题 .因此 美国 贝尔 实验 室 于 1963 年 推出 了 一 种 双 音 多 
频 式 拨号 方式 ， 以 准确 的 、 高 效 的 完成 电话 通信 网 络 中 被 叫 
号 码 的 自动 接收 ， 随 后 双 音 多 频 电话 迅速 取代 了 脉冲 式 电 话 
成 为 主流 的 拨号 方式 。 
如 今 ，DTMEF 信号 已 经 成 为 电话 系统 、 智 能 监控 系统 以 
及 远程 控制 系统 的 主要 通信 方式 .如 表 1 所 示 , 每 一 个 DTMF 
信号 由 两 个 频率 的 音频 信号 县 加 构成 ， 这 两 个 音频 信号 的 频 
率 来 自 两 个 预 分 配 的 频率 组 : 行 频 组 和 列 频 组 。 每 一 对 这 样 
的 音频 信号 唯一 产生 表示 一 个 数字 或 符号 。DTMEF 编码 是 将 
键盘 上 不 同 的 按键 用 8 个 频率 的 不 同 组 合 表 示 出 来 ， 如 当 人 
们 在 智能 手机 的 拨号 键盘 按 下 数字 “1” 时 ， 将 会 由 697 Hz 
和 1209 Hz 的 音调 进行 受 加 而 来 产生 数字 “1” 的 DTMEF 信 


号 。 
表 1 DTMEF 信号 编码 表 
Table 1 The coding table of DTMF signal 
Hz 1209 1336 1477 1633 
697 1 2 3 A 
770 4 § 6 B 
852 7 8 9 C 
941 . 0 # D 


2 ”基于 时 域 的 端点 检测 


考虑 到 用 户 在 智能 手机 上 输入 密码 或 电话 号 码 的 动作 是 
连续 的 ， 大 部 分 的 密码 是 4 位 或 者 6 位 ， 手 机 号 码 是 11 位 ， 
所 以 攻击 者 录音 时 得 到 的 是 连续 的 DTMEF 信号 , 需要 将 连续 
的 DTMEF 信和 号 分 割 成 每 一 个 按键 的 DTMF 信号 进行 识别 。 


其中 : WN 为 帧 长 ， 即 窗口 的 长 度 ，7 为 帧 移 。 


加 窗 后 的 第 4 帧 语音 信号 0m) 的 短 时 能 量 关 


E,= Yam) O) 
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图 1 “95588” 的 DIME 信号 在 时 域 和 频 域 上 的 分 布 
Fig.1 Distribution of "95588" DTMEF signals in time domain and 


frequency domain 

2.2 短 时 过 零 率 

时 域 分 析 中 除了 对 语音 信号 的 短 时 能 量 进行 分 析 ， 还 可 
以 从 语音 信号 波形 的 角度 分 析 。 语 音信 号 输入 会 随 着 时 间 上 
下 波动 ， 形 成 其 特有 的 波形 ， 这 一 特征 可 以 用 一 帧 内 语音 信 
号 通过 零 值得 次 数 来 描述 , 称 为 短 时 过 零 率 。 若 是 连续 信号 ， 
则 语音 信号 的 时 域 波 形 通过 横 轴 的 次 数 即 为 过 零 ， 若 是 离散 
言 号 ， 则 相 邻 取样 值 之 间 的 符号 变化 即 为 过 零 。 由 于 语音 信 
号 是 一 种 短 时 平稳 信号 ， 采 用 短 时 过 零 率 可 以 在 一 定 程度 上 
反映 语音 信号 的 频谱 性 质 ， 由 此 可 以 获得 频谱 特性 的 一 种 估 
计 。 设 语音 信号 为 xD ， 窗 函数 为 wm) ， 加 窗 后 第 n 帧 语音 
盲 号 %(m) 的 短 时 过 零 率 2 为 


1 N=-l 
= lsgnC%, (mm) —sgn(x, (m— 1) (G3) 


其 中 sgn0 是 符号 函数 。 


1 x>0 


sgn(9 = | x<0 (4) 


2.3” 双 阅 值 端 点 检测 


对 此 本 文 将 语音 信号 识别 中 的 端点 检测 0 绝技 术 引 入 到 
DTMF 信号 检测 , 从 连续 的 DTMEF 信和 号 中 分 割 出 按键 信号 和 
非 按键 信号 。 同 时 用 户 的 按键 内 容 是 随机 的 ， 可 能 会 出 现 一 
旦 j 户 进行 电话 银行 操作 时 ， 氢 
打 “95588” 这 种 类 型 的 数字 号 码 。 通 过 对 号 码 “95588” 的 
DTMEF 信号 进行 时 域 和 频 域 上 的 分 析 ， 如 图 1 所 示 ， 可 以 看 
出 相同 的 数字 在 频 域 上 表现 出 相同 的 频率 增幅 ， 并 没有 像 时 
域 上 呈现 多 个 独立 的 信号 , 对 于 DTMEF 信和 号 的 分 割 会 造成 很 
大 误差 。 基 于 此 ， 本 文采 用 基于 时 域 的 端点 检测 算法 区 分 
DTMF 信号 和 非 DTMEF 信和 号。 

2.1 短 时 能 量 

于 语音 信号 能 量 随时 间 变 化 而 变化 ， 语 音 段 和 噪声 段 
之 间 的 能 量 差别 相当 显著 。 因 此 可 以 通过 对 语音 信号 的 短 时 
能 量 进行 分 析 ， 可 以 描述 语音 的 这 种 特征 的 变化 。 设 语音 时 
域 信号 为 x(1) ， 窗 函数 为 wa ， 加 窗 后 的 第 n 帧 语音 信号 为 
tm) ， 则 有 

Xm = WmMxXnt+m), Os<m<N-1, n=0, 17T, 27, (1) 


在 语音 信号 信 噪 比 高 的 条 件 下 ， 仅 靠 计 算 信 号 的 短 时 能 
量 就 基本 能 够 把 语音 段 和 噪声 段 区 别 开 来 ， 即 使 在 最 低 电 平 
的 语音 的 能 量 也 比 噪 声 能 量 要 高 。 但 是 ， 在 现实 生活 中 很 难 
保证 信号 的 高 信 噪 比 , 仅仅 根据 短 时 能 量 进行 判断 是 不 够 的 。 
对 此 ， 还 需 进 一 步 利 用 信号 的 短 时 过 零 率 进行 判断 ， 而 语音 
段 的 短 时 平均 过 零 率 比 噪声 的 短 时 平均 过 零 率 要 高 出 好 几 倍 ， 
所 以 可 以 作为 区 分 语音 段 的 辅助 判断 。 基 于 此 ， 本 文 利用 信 
号 的 短 时 能 量 和 短 时 过 零 率 双重 阔 值 进行 判别 DTMEF 信和 号 
和 非 DTMEF 信和 号 。 
a) 基 于 短 时 能 量 判别 。 如 图 2 所 示 ， 首 先 根 据 语音 信和 号 
的 短 时 能 量 平均 值 选 取 一 个 较 高 的 闷 值 7 ,进行 第 一 次 粗 判 ， 
语音 的 起 止 点 位 于 该 闵 值 与 短 时 能 量 曲 线 交 点 所 对 应 的 时 间 
间隔 之 外 ( 即 44 段 之 外 )。 再 根据 背景 噪声 的 平均 能 量 确定 
一 个 较 低 的 阔 值 了 ， 并 从 4 点 往 左 、 从 杂 点 往 右 进 行 搜索 ， 
分 别 找到 短 时 能 量 曲线 与 也 相交 的 两 个 点 互 和 下 于 是 BB 
就 是 基于 短 时 能 量 所 判断 的 语音 段 。 
b) 基 于 短 时 过 零 率 判别 。 如 图 2 所 示 ， 根 据 背景 噪声 的 
平均 过 零 率 确定 一 个 阔 值 7”， 以 信号 的 短 时 平均 过 零 率 为 标 
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准 ， 从 B 点 往 左 、 从 BB 点 往 右 搜索 ， 找到 短 时 平均 过 零 率 低 
于 阔 值 了 的 两 个 点 CC 和 C ， 这 就 是 语音 段 的 起 止 点 ， 即 
DTMEF 信号 的 起 止 点 。 


基山 演习 洁 


ABC 
图 2 基于 短 时 能 量 和 短 时 过 零 率 的 双 门 限 判 别 示意 
Fig. 2 


Dual threshold discrimination diagram based on short-time 
energy and short-time zero-crossing rate 

过 短 时 能 量 的 粗 判 ， 在 结合 全 时 过 零 率 的 特性 进行 畏 
助 关 可 以 很 好 的 分 割 DTMEF 信号 的 有 效 区 域 。 如 图 3 所 
示 ， 数字 “95588” 的 连续 按键 音信 号 经 过 双 闭 值 端 点 分 割 后 
的 情况 ， 从 上 往 下 依次 是 数字 a ”录音 的 原始 信号 、 在 
加 入 10db 的 噪声 后 的 信号 、 信 号 的 短 时 能 量 分 布 以 及 信号 的 
短 时 过 零 率 分 布 ， 从 图 中 可 以 看 出 该 双 阔 值 端点 检测 算法 能 
够 很 好 的 分 辨 出 DTMEF 信号 和 非 DTMEF 信号 。 
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_ x105 
拒 0.5 
蕉 0 
层 -0.5 4 1 
- 0.5 1 15 2 25 
采样 上 105 


500 1000 1500 2000 2500 3000 3500 


8 了. 风 3 


500 1000 1500 2000 2500 3000 3500 
帧 数 


图 3 数字 “95588” 的 端点 分 割 情况 
Fig.3 Endpoint segmentation ofthe number "95588" 


3 ”基于 频 域 的 分 类 检测 


连续 的 DTMEF 信号 经 过 时 域 上 的 端点 检测 后 , 被 分 割 成 
单个 的 DTMEF 信号 ， 需 要 对 单个 的 DTMEF 信号 进行 分 类 解 
析 成 表 1 中 的 数字 和 字母 。 传 统 的 DTME 信号 检测 方法 有 
DFT 算法 、FFT 算法 等 ， 本 文采 用 Goertzel 算法 对 DTMEF 信 
号 进行 检测 ， 相 对 于 FFT 算法 效率 更 高 。 

3.1 Goertzel 算法 原理 

Goertzel 算法 05 是 由 美国 人 杰 拉 德 。 ee 

Goertzel) 在 1958 年 提出 ， 主 要 用 于 数字 信和 号 处 理 领 域 中 ,是 


te 


一 种 计算 信 a 
则 信号 第 上 个 DFT 分 量 和 表示 为 
X(D= Pre Prk 20, i Nl i 
又 因为 
cy -1 (0) 
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对 等 式 (5) 两 边 同 时 乘 以 Pr 可 以 得 到 


XO = RY (men 07) 


n=0 


车 式 (7) 进 行 变形 可 以 得 到 
Xk) es N (8) 


n=0 


通过 对 等 


等 式 (8) 的 右边 部 分 可 以 看 成 信号 序列 x(n) 与 脉冲 响应 
及 CD 的 离散 线性 卷 积 。 其 中 及 (0 可 以 表示 为 
J es (9) 
如 果 把 卷 积 计算 的 结果 表示 为 y(n) ， 则 有 
= me nm) (10) 


m=0 


此 ， 可 以 对 输出 响应 进行 Z 变换 得 到 变换 方程 : 
LACEDMAC EE (GD) 


n=—% n=0 


有 


P 等 式 (11) 可 以 看 成 以 pr so -1 为 首 项 ， 以 e275w1 为 公 比 
即 |z|>1 的 情况 ， 此 序列 是 


的 几何 级 数 等 比 序列 。 对 于 加 <1， 


趋 于 收敛 的 ， 且 其 求 和 结果 大 
Hi(z)= 2 (12) 
1 一 e Nz-! 
其 相应 的 差分 方程 为 
OD = te y(n) (13) 


其中 CD=0。 
为 了 解决 差分 方程 计算 过 程 中 带 有 复杂 的 倍增 系数 ， 可 
以 在 差分 方程 的 分 子 和 分 母 中 同时 引入 共 恩 因子 


(eewzD ， 从 而 构造 了 一 个 含有 二 阶 共 轿 极点 的 滤波 器 ， 


进而 可 以 得 到 
1-e nz- 
Hi (2) DAk 1 (14) 
1-2cosC 7 )z 十 Z 
其 二 阶 差分 方程 为 


ak 
WA) -xn De n+ 200s Cy, CO-D-wo-2 (15) 


其 中 x(-D=y(-D=y(-2=0 。 对 上 式 引 入 中 间 变 量 vw) ， 可 以 
得 到 最 终 的 结果 为 


vV(n)=x(n)+ 2c0s( vn —])—v(n—2) 


(16) 


=v eR rn) 


该 滤波 器 对 应 的 网 络 结构 如 图 4 所 示 ， 其 中 x(n) 是 语音 
信号 采样 值 ，v(n) 是 中 间 变 量 ， yw(o 是 对 应 的 输出 响应 。 
v(n) 
> 2 > Db Le Vr (n) > 
x ? P 
1 
个 2cos(2xk/ N) | Ei2ak/N 
十 < 。 
用 加 4 人 
下 
| | vn—2) 


中 4 ”Goertzel 算法 原理 框图 
Goertzel algorithm block diagram 


Fig. 4 
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录用 定稿 


3.2 ”Goertzel 算法 性 能 分 析 

对 DTMEF 信号 检测 之 前 , 需要 将 模拟 信号 转换 成 数字 信 
号 。 从 表 1 可 知 ，DTMEF 信号 最 高 频率 为 f=1633Hz ， 采 用 
=8000Hz 的 采用 频率 显然 满足 奈奈 斯 特 采样 定理 的 要 求 ， 
然后 对 采样 后 的 数字 信号 利用 Goertzel 算法 求 出 相应 频率 的 
幅 值 信息 ， 即 


[XOOF = VP = ev ND (17) 


而 需要 检测 的 DTME 信号 频率 与 离散 傅 里 叶 系 数 k 存 
在 着 如 下 关系 : 


k= Nx (18) 
其 中 : WN 是 采样 点 数 ， 大 是 采样 频率 。 NX 的 选取 取决 于 频率 
分 辨 率 和 采集 N 个 采样 点 所 需要 的 时 间 ，N 取 值 越 大 ， 频 率 
分 状 率 越 高 ， 采 样 所 需 时 间 也 会 相应 增加 。 因 此 ， 需 要 在 频 
率 分 辨 率 和 采样 时 间 这 两 个 因素 之 间作 出 权衡 。 文 献 [16] 中 
给 出 了 N=205 是 最 佳 值 ， 这 时 的 频率 偏差 保持 在 小 于 1.5% 
的 范围 内 , 符合 国际 电信 联盟 ITU 对 DTMEF 信号 有 效 性 的 要 
求 074， 所 以 本 文 在 实验 时 ， 取 W=205 和 大 =8000 。 利 用 上 式 
可 以 求 出 DTMF 信号 的 8 个 频率 所 对 应 的 上 值 ， 如 取 
f=697Hz 时 ， 有 

697 


k=NxF =205x 
让 8000 


=17.8606 (19) 


于 必须 取 整 数 ， 所 以 将 其 四 舍 五 入 取 k=18，DTMF 
其 他 频率 也 可 以 通过 上 式 相 应 计算 得 到 ，8 个 DTMF 频率 对 
应 k 值 如 表 2 所 示 。 
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范围 


d) 根 据 信号 的 平均 过 零 率 和 噪声 的 平均 过 零 率 选取 的 阔 
值 区 ， 进 行 短 时 过 零 率 的 判别 ， 确 定 最 终 语音 段 的 起 止 点 。 
e) 循 环 步骤 c) 和 d)， 当 满足 双 闵 值 判 别 时 ， 将 最 近 一 次 

E 量 序列 作为 语音 信号 端点 的 候选 序列 ， 直 到 遍历 完 所 有 
E 量 序列 ， 得 到 最 终 的 候选 分 段 序 列 {5;} 。 

将 分 段 序 列 {5;} 对 应 的 时 域 信号 转换 到 频 域 ， 通 过 
Goertzel 算法 进行 DTMEF 信号 的 解析 , 找到 每 一 段 DTMF 信 
号 在 频 域 内 对 应 的 频率 对 (fi,)) 。 

外 将 所 有 的 频率 对 在 DTMEF 编码 中 查询 ， 得 到 该 
终 的 数字 序列 {B) ， 算 法 结束 。 


FFT 算 法 


mk 


号 最 


0 200 400 600 800 1000 1200 1400 1600 1800 2000 


Goertzel 算 法 
1 
El 
奴 0.5r 
0 二 二 二 4 
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图 5 数字 “1” 的 FFT 变换 与 Goertzel 变换 
Fig.5 FFT algorithm and Goertzel algorithm for number "1" 
表 3 Goertzel 算法 与 FFT 算法 运算 结果 对 比 


表 2 8 个 DTMF 频率 对 应 的 大 值 Table 3 Comparison between Goertzel algorithm and FFT algorithm 
Table 8 DTMEF frequencies Goertzel 算法 FFT 算法 
基本 频率 (Hz) 计算 大 值 整数 上 值 绝对 误差 加 法 次 数 3Nlog, V (2N +Dx8 
697 17.861 18 0.139 乘法 次 数 2Nlog, N (N+Dx8 
770 19.731 20 0.269 总 运算 次 数 SNlog, N 24N +24 
852 21.833 22 0.167 N=205 4944 7872 
941 24.113 24 0.113 
1206 30.981 | 0.019 pe 
1306 34.235 34 0.235 ~ 2 
1477 37.848 38 0.152 v 
1633 41.864 42 0.154 EO 
于 Goertzel 算法 只 关心 8 个 频率 的 信息 ， 相 对 于 FFT 人 
算法 计算 量 更 小 ， 在 频 域 上 的 分 辩 率 更 好 。 如 图 5 所 示 在 ET 
1; 


N=205 和 =8000 条 件 下 ， 数 字 “1” 对 应 的 DTMEF 信号 识 
别 情况 , 其 中 FFT 算 法 将 信号 整个 频 域 的 信息 都 计算 出 来 了 ， 
且 需 要 找 出 两 个 幅度 最 大 的 频率 值 ， 而 对 应 的 Goertzel 算法 
计算 8 个 DTMEF 信和 号 的 幅度 值 ， 计 算 量 减 小 ,而且 分 辩 率 更 
高 。 如 表 3 所 示 ， 对 于 Goertzel 算法 和 FFT 算法 计算 复杂 度 
对 比 ， 在 N=205 的 条 件 下 ，Goertzel 的 计算 量 相 对 于 FFT 算 
法 减少 了 60%。 

4 ”算法 实现 

算法 的 流程 如 图 6 所 示 ， 具 体 的 步骤 为 : 

a) 对 输入 的 数字 语音 信号 x(n) 进行 预 处 理 ， 其 中 包括 滤 
波 、 分 帧 加 窗 使 其 去 除 大 部 分 噪声 信号 。 

b) 信 号 分 帧 之 后 ， 每 一 帧 记 为 $m)，n=1 2,…N，N 为 
帧 长 ，i 为 帧 数 。 以 帧 为 单位 计算 语音 信号 的 短 时 能 量 和 短 
时 过 零 率 ， 分 别 为 序列 {6} 和 {2} 。 

c) 根 据 信号 的 短 时 能 量 篆 景 噪声 的 短 时 能 量 选取 的 闵 
值 7 和， 进行 短 时 能 量 的 判别 ， 确 定语 音 段 起 止 点 的 大 致 


Ss N(pass) 
能 量 判决 


Y 


v 
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图 6 算法 流程 框图 


Fig.6 The algorithm flow diagram 
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5 ”实验 结果 与 分 析 


5.1 实验 环境 
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施 过 程 ， 其次， 介绍 了 基于 短 时 能 量 和 基于 过 零 率 的 端点 分 


制 算法 , 本文 将 其 二 


进行 结合 ,更 好 地 利用 了 二 者 的 特性 ， 


分 割 效果 更 好 ; 然后， 介绍 了 Goertzel 算法 的 核心 思想 以 及 


实验 在 杭州 电子 科技 大 学 的 第 一 教学 楼 实验 室 进 行 ， 首 
先 在 实验 室 环 境 下 采集 数据 ， 分 别 按照 1 位 、4 位 、6 位 和 
11 位 数字 录取 各 100 份 录音 数据 ， 然 后 将 录音 数据 在 Win10 
系统 下 基于 MATLAB2016a 平台 进行 DTMEF 信号 检测 。 其 中 


后 ， 


实现 ， 将 端点 分 割 后 的 信号 通过 Goertzel 算法 进行 分 类 ; 最 


对 整个 攻击 方案 的 端点 检测 部 分 以 及 DTMEF 信号 检测 部 


分 进行 实验 分 析 ， 证 明了 该 方案 的 可 行 性 和 实用 性 。 但 是 ， 


Er 


日 于 文章 篇 幅 和 水 平 的 限 囊 


JE 


， 本 文 提 出 了 攻击 方案 主要 考虑 


录音 采用 两 部 Android 手机 相距 20 cm 进行 录制 ， 音 频 格式 
为 wav， 信 号 采样 率 为 8 kHz， 精 度 为 16 bit， 窗 函数 采用 汉 
明 窗 ， 帧 长 取 32 ms， 帧 移 为 8 ms。 

5.2 结果 分 析 

首先 将 采集 到 的 300 份 数据 (4 位 数字 ，6 位 数字 ，11 位 
数字 )， 加 入 6 种 不 同 信 噪 比 下 的 噪声 ， 然 后 根据 基于 时 域 的 
端点 检测 算法 进行 分 制 。 本 文 定义 了 端点 分 割 的 误差 函数 : 


Pi= 斑 (20) 


其 中 ， pi 为 i 位 数字 的 分 割 误差 ,为 i 位 数字 经 过 基于 时 域 
的 端点 分 割 后 的 有 效 区 间 数 ， G 为 上 位 数字 有 效 区 间 的 真实 
数 (Ground Truth)。 如 图 7 所 示 ， 三 种 不 同位 数 的 数字 在 不 同 
信 噪 比 下 的 端点 检测 结果 。 可 以 看 出 4 位 数字 和 6 位 数字 信 
号 在 信 噪 比 很 低 的 条 件 下 ， 分 割 精确 度 在 80% 以 上 ， 在 高 信 
噪 比 的 条 件 下 能 达到 90% 以 上 的 分 割 准 确 率 。 而 由 于 电话 号 
码 数字 位 数 较 长 ， 在 低 信 噪 比 的 条 件 下 ， 分 割 准确 率 相 对 4 
位 数字 和 6 位 数字 要 低 ， 但 是 也 基本 满足 要 求 ， 分 割 准确 率 
基本 保持 在 75% 以 上 。 
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图 7 三 种 数字 在 不 同 信 噪 比 下 的 分 割 误 差 


Segmentation error of three numbers at different 


Fig.7 

signal-to-noise ratios 

最 后 ， 本 文 在 4 位 、6 位 和 11 位 数字 切割 完成 后 ， 将 所 

有 有 效 区 间 的 信号 经 过 Goertzel 算法 进行 分 类 ， 从 数字 “0” 

至 数字 “9”， 检 测 DTMEF 信号 所 对 应 的 数字 是 否 正确 。 如 图 

8、9 所 示 ， 将 采集 的 1 位 数字 的 录音 数据 以 及 分 割 后 的 1 位 
数字 的 信号 数据 ( 取 500 份 ), 进行 Goertzel 分 类 算法 的 结果 ， 
Goertzel 算法 的 平均 分 类 准确 率 为 80.36%， 实 验 结果 表明 ， 

该 攻击 方法 是 有 效 的 。 


6 ”结束 语 


本 文 总 结 了 现 通信 环境 下 智能 手机 隐私 安全 方面 的 已 有 
攻击 种 类 , 并 提出 了 一 种 基于 DTMEF 信号 的 智能 手机 外 部 攻 
击 方法 ， 通 过 对 用 户 拨打 电话 、 输 入 密码 等 操作 的 按键 音 录 
音 , 然后 对 按键 的 DTMEF 信号 进行 时 域 和 频 域 的 混合 算法 进 
行 解 析 ， 获 取 用 户 按键 信息 。 文 中 首先 阐述 了 方案 的 具体 实 


在 有 噪声 的 环境 下 近 距 离 对 用 户 手 机 进行 攻击 ， 没 


考虑 到 


攻击 的 攻击 角度 、 方 向 以 及 远 距 离 等 因素 的 影响 ， 所 以 ， 下 


J 


的 研究 方向 将 在 这 些 方面 继续 深入 研究 。 
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图 8 数字 “0” 到 “4” 的 检测 结果 


Fig.8 The detection results for numbers "0" to "4" 
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图 9 数字 “5” 到 “9” 的 检测 结果 
Fig.9 The detection results for numbers "5" to "9" 
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